Projet Encadré 2 : Boîte à Outils

Structure du corpus

Les données textuelles interprétables sont stockés au milieu des balises nommées respectivement title et description, ce qui nous permet de les extraire en ciblant les parties correspondantes.

Ainsi, nous allons utiliser les expressions régulières pour localiser les contenus utiles.

L'image ci-dessous montre comment les informations sont structurées dans un fichier xml.

Script Perl

téléchargement

Résultats

Nous avons ainsi obtenu deux types de sortie, l'un est au format txt, l'autre en xml. Dans le script, nous avons utilisé la commande

      open my $output_xml, ">:encoding(UTF-8)","./results/perl-bao1-$RUBRIQUE-corpus-titre-description.xml"

pour distinguer le résultat de la BàO1 et celui de la BàO2.

Sortie txt	Sortie xml
téléchargement	téléchargement

Script Python

Résultats

Comme sous Perl, nous y avons aussi obtenu deux types de sortie, Dans le script, nous avons utilisé la commande

      output_txt=open(dir+'results'+f'py-{rubrique}-corpus-titre-description.txt', 'w', encoding='utf-8')

pour distinguer le résultat de la BàO1 et celui de la BàO2.

Sortie txt

Sortie xml

BàO 1 : extraction de texte dans une arborescence de fils RSS

Structure du corpus

Script Perl

Résultats

Script Python

Résultats

Quick Links